The foundation models have recently shown excellent performance on a variety of downstream tasks in computer vision. However, most existing vision foundation models simply focus on image-level pretraining and adpation, which are limited for dynamic and complex video-level understanding tasks. To fill the gap, we present general video foundation models, InternVideo, by taking advantage of both generative and discriminative self-supervised video learning. Specifically, InternVideo efficiently explores masked video modeling and video-language contrastive learning as the pretraining objectives, and selectively coordinates video representations of these two complementary frameworks in a learnable manner to boost various video applications. Without bells and whistles, InternVideo achieves state-of-the-art performance on 39 video datasets from extensive tasks including video action recognition/detection, video-language alignment, and open-world video applications. Especially, our methods can obtain 91.1% and 77.2% top-1 accuracy on the challenging Kinetics-400 and Something-Something V2 benchmarks, respectively. All of these results effectively show the generality of our InternVideo for video understanding. The code will be released at https://github.com/OpenGVLab/InternVideo .
translated by 谷歌翻译
Video recognition in an open and dynamic world is quite challenging, as we need to handle different settings such as close-set, long-tail, few-shot and open-set. By leveraging semantic knowledge from noisy text descriptions crawled from the Internet, we focus on the general video recognition (GVR) problem of solving different recognition tasks within a unified framework. The core contribution of this paper is twofold. First, we build a comprehensive video recognition benchmark of Kinetics-GVR, including four sub-task datasets to cover the mentioned settings. To facilitate the research of GVR, we propose to utilize external textual knowledge from the Internet and provide multi-source text descriptions for all action classes. Second, inspired by the flexibility of language representation, we present a unified visual-linguistic framework (VLG) to solve the problem of GVR by an effective two-stage training paradigm. Our VLG is first pre-trained on video and language datasets to learn a shared feature space, and then devises a flexible bi-modal attention head to collaborate high-level semantic concepts under different settings. Extensive results show that our VLG obtains the state-of-the-art performance under four settings. The superior performance demonstrates the effectiveness and generalization ability of our proposed framework. We hope our work makes a step towards the general video recognition and could serve as a baseline for future research. The code and models will be available at https://github.com/MCG-NJU/VLG.
translated by 谷歌翻译
多模式变压器表现出高容量和灵活性,可将图像和文本对齐以进行视觉接地。然而,由于自我发挥操作的二次时间复杂性,仅编码的接地框架(例如,transvg)遭受了沉重的计算。为了解决这个问题,我们通过将整个接地过程解散为编码和解码阶段,提出了一种新的多模式变压器体系结构,以动态MDETR形成。关键观察是,图像中存在很高的空间冗余。因此,我们通过在加快视觉接地过程之前利用这种稀疏性来设计一种新的动态多模式变压器解码器。具体而言,我们的动态解码器由2D自适应采样模块和文本引导的解码模块组成。采样模块旨在通过预测参考点的偏移来选择这些信息补丁,而解码模块则可以通过在图像功能和文本功能之间执行交叉注意来提取接地对象信息。这两个模块也被堆叠起来,以逐渐弥合模态间隙,并迭代地完善接地对象的参考点,最终实现了视觉接地的目的。对五个基准测试的广泛实验表明,我们提出的动态MDETR实现了计算和准确性之间的竞争权衡。值得注意的是,在解码器中仅使用9%的特征点,我们可以降低〜44%的多模式变压器的GLOP,但仍然比仅编码器的对应物更高的精度。此外,为了验证其概括能力并扩展我们的动态MDETR,我们构建了第一个单级剪辑授权的视觉接地框架,并在这些基准测试中实现最先进的性能。
translated by 谷歌翻译
图像文本聚类(ITC)的目标是通过整合这些异质样品的多模式的互补和一致信息来找到正确的簇。但是,目前的大多数研究都根据理想的前提分析了ITC,即每种模式中的样本都是完整的。但是,在现实情况下,这种推定并不总是有效的。缺少的数据问题使图像文本特征学习性能退化,并最终会影响ITC任务中的概括能力。尽管已经提出了一系列方法来解决此不完整的图像文本群集问题(IITC),但仍然存在以下问题:1)大多数现有方法几乎不考虑异质特征域之间的明显差距。 2)对于缺少数据,很少保证由现有方法生成的表示形式适合聚类任务。 3)现有方法不利用内部和内部模式的潜在连接。在本文中,我们提出了一个聚类引起的生成不完整的图像文本聚类(CIGIT-C)网络,以应对上述挑战。更具体地说,我们首先使用特定于模态的编码器将原始功能映射到更独特的子空间。通过使用对抗生成网络在另一种模态上产生一种方式,可以彻底探索内部内部和模式之间的潜在连接。最后,我们使用两个KL DiverGence损失更新相应的模态特异性编码器。公共图像文本数据集的实验结果表明,建议的方法优于IITC作业更有效。
translated by 谷歌翻译
不完整的多视图聚类旨在通过使用来自多种模式的数据来增强聚类性能。尽管已经提出了几种研究此问题的方法,但以下缺点仍然存在:1)很难学习潜在的互补性但不使用标签信息而保持一致性的潜在表示; 2)因此,当完整的数据稀缺时,在不完整的数据中未能充分利用不完整数据中的隐藏信息会导致次优群集性能。在本文中,我们提出了与生成对抗网络(CIMIC-GAN)的对比度不完整的多视图图像聚类,该网络使用GAN填充不完整的数据并使用双对比度学习来学习完整和不完整的数据的一致性。更具体地说,考虑到多种方式之间的多样性和互补信息,我们将完整和不完整数据的自动编码表示为双对比度学习,以实现学习一致性。将gan集成到自动编码过程中不仅可以充分利用不完整数据的新功能,而且可以在存在高数据缺失率的情况下更好地概括该模型。在\ textColor {black} {四}广泛使用的数据集上进行的实验表明,cimic-gan优于最先进的不完整的多视图聚类方法。
translated by 谷歌翻译
通用事件边界检测(GEBD)是视频理解中的一项重要但挑战性的任务,该任务旨在检测人类自然感知事件边界的时刻。在本文中,我们为GEBD任务提供了本地上下文建模和全局边界解码方法。提出了局部上下文建模子网络来感知通用事件边界的各种模式,并生成强大的视频表示和可靠的边界信心。基于它们,全局边界解码子网络被利用为从全局视图解码事件边界。我们提出的方法在动力学-GEBD测试集上达到了85.13%的F1得分,与基线方法相比,它实现了22%以上的F1得分增强。该代码可从https://github.com/jackytown/gebd_challenge_cvpr2022获得。
translated by 谷歌翻译
Temporal action detection (TAD) is extensively studied in the video understanding community by generally following the object detection pipeline in images. However, complex designs are not uncommon in TAD, such as two-stream feature extraction, multi-stage training, complex temporal modeling, and global context fusion. In this paper, we do not aim to introduce any novel technique for TAD. Instead, we study a simple, straightforward, yet must-known baseline given the current status of complex design and low detection efficiency in TAD. In our simple baseline (termed BasicTAD), we decompose the TAD pipeline into several essential components: data sampling, backbone design, neck construction, and detection head. We extensively investigate the existing techniques in each component for this baseline, and more importantly, perform end-to-end training over the entire pipeline thanks to the simplicity of design. As a result, this simple BasicTAD yields an astounding and real-time RGB-Only baseline very close to the state-of-the-art methods with two-stream inputs. In addition, we further improve the BasicTAD by preserving more temporal and spatial information in network representation (termed as PlusTAD). Empirical results demonstrate that our PlusTAD is very efficient and significantly outperforms the previous methods on the datasets of THUMOS14 and FineAction. Meanwhile, we also perform in-depth visualization and error analysis on our proposed method and try to provide more insights on the TAD problem. Our approach can serve as a strong baseline for future TAD research. The code and model will be released at https://github.com/MCG-NJU/BasicTAD.
translated by 谷歌翻译
聚合邻居功能对于点云分类至关重要。在现有的工作中,不可避免地会选择云中的每个点作为多个聚合中心的邻居,因为所有中心将独立地从整个点云中收集邻居功能。因此,每个点必须反复参与计算,并在内存中生成冗余重复项,从而导致密集的计算成本和记忆消耗。同时,为了追求更高的准确性,以前的方法通常依靠复杂的局部聚合器来提取精细的几何表示,这进一步减慢了分类管道。为了解决这些问题,我们提出了一个新的线性复杂性的本地聚合器,用于点云分类,以应用为应用。具体而言,我们引入一个辅助容器作为锚点,以在源点和聚合中心之间进行交换。每个源点只能将其功能推到一个辅助容器,每个中心点仅从一个辅助容器中拉出特征。这避免了每个源点的重新计算问题。为了促进云点的局部结构的学习,我们使用在线正常估计模块提供可解释的几何信息以增强我们的应用程序建模能力。我们的构建网络比所有以前的基线都更有效,并且在仍然消耗较低的内存的同时,它的空间清晰。合成数据集和真实数据集的实验表明,APP-NET与其他网络相当。它可以每秒处理超过10,000个样本,而单个GPU上的内存少于10GB。我们将在https://github.com/mcg-nju/app-net中发布代码。
translated by 谷歌翻译
本文重点介绍了弱监督的视频视频解析任务,该任务旨在识别属于每种模式的所有事件并定位其时间界。此任务是具有挑战性的,因为只有表示视频事件的整体标签用于培训。但是,事件可能被标记,但不会出现在其中一种方式中,这导致了特定于模态的嘈杂标签问题。在这项工作中,我们提出了一种培训策略,以动态识别和删除特定于模式的嘈杂标签。它是由两个关键观察的动机:1)网络倾向于首先学习干净的样本; 2)标记的事件至少以一种方式出现。具体而言,我们将每个实例在每种模式中单独分别对所有实例的损失进行排序,然后根据模式内和模式间损耗之间的关系选择嘈杂的样本。此外,我们还通过计算置信度低于预设阈值的实例的比例来提出一种简单但有效的噪声比率估计方法。我们的方法对先前的艺术状态进行了大量改进(\ eg,从60.0 \%到63.8 \%\%在细分级视觉度量中),这证明了我们方法的有效性。代码和训练有素的模型可在\ url {https://github.com/mcg-nju/jomold}上公开获得。
translated by 谷歌翻译
通常需要在大型数据集上进行预训练的视频变压器,以在相对较小的数据集上实现首要性能。在本文中,我们表明视频蒙面的自动编码器(Videomae)是用于自我监督视频预训练(SSVP)的数据效率学习者。我们的启发受到了最近的ImageMae的启发,并提出了具有极高比例的定制视频管掩蔽。这种简单的设计使视频重建成为更具挑战性的自我判断任务,从而鼓励在此预训练过程中提取更有效的视频表示。我们在SSVP上获得了三个重要发现:(1)屏蔽比的比例极高(即90%至95%)仍然可以产生良好的视频性能。在时间上冗余的视频内容比图像更高的掩蔽率。 (2)视频在很小的数据集(即3K-4K视频)上取得了令人印象深刻的结果,而无需使用任何额外的数据。 (3)视频表明,数据质量比SSVP的数据数量更重要。在培训和目标数据集之间的域转移是一个重要问题。值得注意的是,我们与香草VIT的视频在动力学400上可以达到85.8%,在不使用任何额外数据的情况下,在HMDB51上的V2上有75.3%,UCF101的某些东西为75.3%,在UCF101上获得90.8%,HMDB51上的90.8%和61.1%。代码可从https://github.com/mcg-nju/videomae获得。
translated by 谷歌翻译